Errores ortográficos y de competencia en textos de la web en euskera

نویسندگان

  • Iñaki Alegria
  • Izaskun Etxeberria
  • Igor Leturia
چکیده

The objective of the work presented in this paper is to estimate the quality of corpora retrieved from the Basque Web. The methodology i followed is similar to that used for English and Germany by Ringlstetter et al. (2006). The main difference lies in the fact that we reuse spelling checkers for detecting errors. We think that by this way we obtain a higher error coverage and that the method can be applied to other languages with practically no manual work provided such tools are available for them. The results obtained can be useful for improving the quality of corpora obtained from the web, eliminating documents containing errors over a given threshold.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

STILUS: Sistema de revisión lingüistica de textos en castellano

STILUS es el producto de tecnología lingüística de DAEDALUS S.A. para la revisión ortográfica, gramatical y de estilo de gran calidad de textos en castellano. Con STILUS se puede revisar cualquier texto, ya se trate de un documento de cualquier procesador de textos o de una página web, y obtener un informe detallado y preciso con los errores ortográficos, gramaticales y de estilo detectados. El...

متن کامل

Simplificación automática de textos en euskera

En este art́ıculo presentamos el trabajo llevado a cabo dentro del proyecto de tesis doctoral llamado “Egitura sintaktiko konplexuen identifikazioa eta sinplifikazioa euskararen tratamendu automatikoan” (Identificación y simplificación de las estructuras sintácticas complejas en el procesamiento automático del Euskera) que se realiza bajo la dirección de las doctoras Arantza Dı́az de Ilarraza y M...

متن کامل

Dealing with Input Noise in Statistical Machine Translation

Misspelled words have a direct impact on the final quality obtained by Statistical Machine Translation (SMT) systems as the input becomes noisy and unpredictable. This paper presents some improvement strategies for translating real-life noisy input. The proposed strategies are based on a preprocessing step consisting in a character-based translator (MT) from noisy into cleaned text. The use of ...

متن کامل

Detección del lenguaje figurativo e ironía en textos cortos

Resumen En la presente investigación se propone un modelo para resolver la Tarea 11 de la Competencia Semeval 2015. El modelo propuesto utiliza caracteŕısticas léxicas extráıdas de los textos, asi como la polaridad de las palabras obtenidas utilizando diferentes herramientas. El modelo fue validado con 1 corpus de Twitter y se compara el desempeño de dos de los algoŕıtmos más usados para clasif...

متن کامل

Presentación sinóptica de textos bilingües mediante distancias de edición

Resumen Aunque la alineación de textos multilingües mediante métodos de traducción estadística consigue buenos resultados, su implementación es compleja y su fundamentación teórica es, a menudo, intrincada. En el caso de textos escritos en idiomas emparentados (por ejemplo, el latín y el castellano) hemos conseguido resultados satisfactorios usando programas muy simples basados en la distancia ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • Procesamiento del Lenguaje Natural

دوره 45  شماره 

صفحات  -

تاریخ انتشار 2010